论文阅读 |
您所在的位置:网站首页 › last name和first name的介绍 › 论文阅读 |
论文信息
number headings: auto, first-level 2, max 4, _.1.1 name_en: SoundStream: An End-to-End Neural Audio Codec name_ch: SoundStream:一种端到端的神经音频编解码器 paper_addr: http://arxiv.org/abs/2107.03312 doi: 10.1109/TASLP.2021.3129994 date_read: 2023-05-01 date_publish: 2021-07-07 tags: ['深度学习','音频'] if: 4.364 Q1 B1 journal: IEEE author: Neil Zeghidour,Google citation: 82 1 读后感高效压缩语音、音乐和一般音频。模型由编码器,量化器,解码器组成,主要使用了卷积技术。 2 摘要基于神经网络的音频编码器,可高效生成文本,音乐。模型结构由全卷积编码器/解码器网络和残差矢量量化器组成。它结合了对抗和重建损失技术,可将量化的嵌入作为输入,生成高质量音频。 单模型生成3kbps~18kpbs的音频。该模型适用于低延迟实现,支持流式推理,并可在智能手机 CPU 上实时运行。通过主观质量证明,SoundStream输出音频高于之前模型。 3 介绍主要贡献: 提出音频编码器SoundStream,由编码、解码、量化器组成;通过重建和对抗损失训练模型,实现高品质音频生成。 提出新的残差量化器,平衡速率/失真/复杂度;提出quantizer dropout,使单个模型能处理不同比特率。 对于采用梅尔图谱特征的解决方案,编码器带来了非常显著的编码效率提升。 主观评测中证明,其输出音质高于之前模型,其3kbps的效果在主观评估中优于12kbps的Opus和9.6kbps的EVS。 模型可在低延迟下运行,部署在智能手机上时,可在单个 CPU 线程上实时运行。 提出了一种 SoundStream 编解码器的变体,可以联合音频压缩和增强,而不引入额外的延迟。 4 方法模型由三部分组成: 编码器:卷积Encoder将采样率为fs的输入音频x转换为嵌入序列。 残差向量量化(RVQ):将嵌入通过codebooks,压缩成少量字节(目标位数)的表示,生成量化嵌入。 解码器:从量化的嵌入中产生有损重建x^。 其训练过程中还用了一个判别器Discrminator,它结合了对抗和重建损失,并使用可选的条件输入,用于指示是否从音频中去除背景噪声(Denosing)。部署模型时,Transmiter的编码器和量化器将压缩,由Receiver解码音频信号。 4.1 编码器结构其输出维度是SxD,D是Embedding的维度,S = T /M,其中T是时间M是不同层(跨度)的输出如图中的:M = 2 · 4 · 5 · 8 = 320;如图每个Encoder由多个EncoderBlock组成,而EncoderBlock又由ResidualUnit组成。 4.2 解码器结构解码器类似于编码器的逆过程,把降采样变成了升采样。 4.3 残差向量量化量化器的目标是压缩编码器产生的嵌入,转换到指定的字节长度。它学习一个 N 个矢量的码本来编码 enc(x) 的每个 D 维帧。然后将编码后的音频 S×D 映射到形状为 S × N 的onehot向量序列。 4.4 判别器结构定义了两个不同的鉴别器: 基于波型的鉴别器,它接收单个波形作为输入; 基于 STFT (快速傅里叶变换)的鉴别器,它接收输入波形的复值 STFT 作为输入,以实部和虚部表示。 两个鉴别器都是完全卷积的,因此输出中的逻辑数与输入音频的长度成正比。 4.5 训练目标输入音频是x,最终输出音频x^=g(x)。保证生成的保真度和质量。 鉴别器用于判断语音为原始语音还是生成语音: 生成器的对抗损失是: 为了提高信号保真度,还采用了两个额外的损失:特征损失 Lfeat ,在鉴别器定义的特征空间中计算;多尺度光谱重建损失 Lrec: 其中L是模型内部的层数,用于对比每一层的原始数据与生成数据的差别,计算其平均绝对误差。 这里的S(x)用于计算梅尔倒谱。 从损失函数中可以看到,除了深度学习对抗学习的方法,这里还引入了描述音频的梅尔倒谱,傅里利变换提取特征的方法,用于衡量生成音频与原始音频的差异。 最终的误差结合了上述三种误差: 4.6 结合压缩和增强SoundStream 设计为压缩和增强可以由同一模型联合进行,而不会增加整体延迟。 提供代表两种模式(去噪启用或禁用)的调节信号,使模型可同时支持生成带背景声的音频和去噪的音频。具体方法是引入了特征线性调制 (FiLM) 层。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |